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基于 CapsNet 的 中 国手 指 语 识 别 “ 
孝子 爆 ， 阿 里 甫 。 库 尔 班 ， 李 晓 红 ， 依 沙 ， 在 阿 提 别 克 


(新 疆 大 学 软件 学 院 ， 乌 鲁 木 齐 830046) 


摘 要 : 中 国手 指 语 的 识别 作为 中 国手 语 识别 中 重要 的 组 成 部 分 ， 使 听 障 者 的 交流 和 人 机 交互 更 加 便捷 。 传 统 的 手指 
语 识别 采用 卷 积 神经 网 络 的 方法 ， 模 型 结构 单一 ， 在 池 化 层 会 丢弃 很 多 信息 。Capsule 〈 胶 才 ) 是 在 神经 网 络 中 构建 和 
抽象 出 的 子 网 络 ， 每 个 胶 品 都 专注 于 一 些 单独 的 任务 ， 又 能 保留 图 像 的 空间 特征 。 分 析 了 中 国手 语 中 手指 语 的 特征 ， 
构建 并 扩展 了 手指 语 图 片 训练 集 , 试图 用 CapsNet ( 胶 吉 网络 ) 模型 解决 手指 语 的 识别 任务 , 对 比 了 不 同 参数 下 CapsNet 
的 识别 率 ， 并 与 经 典 的 GoogLeNet 卷 积 网 络 作 对 比 。 实 验 结 果 表 明 ，CapsNet 在 手语 识别 任务 上 能 达到 较 好 的 识别 效 
果 。 
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Chinese finger language recognition use CapsNet 


Hao Ziyu, Alifu.kuerban', Li Xiaohong, Yisa.watbek 
(School of Software, University of Urumgqi 830046, China) 


Abstract: As an important part of Chinese sign language recognition, the recognition of Chinese finger language makes the 
communication of the deaf and man-machine interaction more convenient. Traditional finger-language recognition adopts the 
method of convolution neural network(CNN) , leading to the structure of the model is single and a lot of information will be 
discarded in the pooling layer. Capsules are kinds of constructed and Abstract: d subnetworks in neural networks, and 
meanwhile each Capsule focuses on individual tasks and preserving spatial features of the image. Analyzing characteristics of 
finger language in Chinese sign language, and constructing and expanding training set of finger language pictures, we try to 
solve the task of finger language recognition by using CapsNet. Comparing the CapsNet recognition rate under different 
parameters and comparing with the classic GoogLeNet convolution network, experimental results show that CapsNet can 


achieve better recognition effect in the task of sign language recognition. 
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辨认 语音 ， 提 高 看 话 能 力 ， 加 快 识字 进度 ， 更 好 地 掌握 新 词 。 


0 言 
手指 语 作为 中 国手 语 重 要 组 成 部 分 ， 使 中 国 


手语 作为 釜 号 人 思想 交流 和 人 际 交往 的 主要 工具 ， 在 该 群 ”过 结合 手指 语 改善 了 手势 语 的 表达 方法 ， 使 手势 语 更 加 精确 和 
体 知识 习 得 、 个 体 发 展 和 社会 认 知 中 伴 有 重要 的 作用 帆 。 手 语 。 丰富 。《 汉 语 手指 语 字母 方案 》 共 规定 了 30 个 字母 指 式 ， 如 图 
是 登 吓 人 通过 手 和 手臂 ， 同 时 借助 头 部 动作 、 脸 部 表情 和 肢体 1 所 示 。 
姿态 进行 交流 的 特殊 语言 。 手 语 识别 利用 模式 识别 技术 ， 通 过 顾 定 倩 等 人 喇 认 为 ， 用 手指 语 表示 特定 的 手语 意义 是 中 国 
分 析 手 和 手臂 的 动作 姿态 特征 ， 将 序列 特征 作为 分 类 器 的 输入 ”手语 中 相当 普遍 的 现象 。 手 指 语 不 仅 充当 某 个 词素 ， 还 经 常 充 


进行 分 类 识别 任务 ， 最 终 将 手语 翻译 为 文本 或 声音 输出 ,方便 。 当 基 本 词 。 主 要 有 以 下 三 种 形式 的 手指 语 : 


听 障 人 群 的 日 常 交 流 趾 。 手 语 识别 也 为 健全 人 学 习 和 理解 手语 引 单 一 字母 手势 。 它 是 用 一 个 表示 声母 的 手指 语 来 表示 一 
提供 了 便利 条 件 。 个 词 的 手势 ， 除 了 “v” 这 个 手指 字母 没有 运用 外 ， 其 他 29 个 
手指 语 用 指 式 代表 字母 ， 按 照 汉语 拼音 方案 拼 成 普通 话 。 手指 语 全 都 作为 基本 词 独 立 出 现 过 , 如 手势 语 “ 丰 绿 ” 和 “和 白 ” 


由 于 手指 语 指 式 少 ， 而 且 易 学 易 记 ， 可 以 帮助 礁 哑 学 生 识 记 、 手势 如 图 2 所 示 。 
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日 字母 变 式 手势 。 这 类 基本 词 的 构思 仍然 是 使 用 手指 语 ， 网 络 的 层 数 、 改 变 激活 函数 等 方法 改进 回 。LeNets 是 第 一 个 成 
但 是 在 使 用 方式 上 发 生 了 变异 ， 称 之 为 变 式 。 例 如 用 一 、 两 个 。” 功 应 用 于 数字 识别 问题 的 卷 积 神经 网 络 ， 其 结构 如 图 4 所 示 。 
变换 方向 、 或 附加 动作 、 或 置 于 身体 某 个 部 位 的 手指 语 表示 一 i 
个 词 的 手势 ， 如 手势 语 “ 汉 ”。 六 


= SN 
和 下 二 [re NSAA 
c) 字 母音 节 手 势 。 它 是 用 完整 表示 声韵 母音 节 手 指 语 表示 Ni Pe 


词 的 手势 ， 如 手势 语 “ 吴 ”“ 冯 ”和 “ 吴 ” 的 手势 如 图 3 所 示 。 Es 


™ 
Convolutions Fully Connected 


\ 术 Le 我 | | Subsampling 
a le | le E | 4 ”LeNet5 结构 
ee 着 积 神经 网 络 通过 结合 局 部 感知 区 域 、 共 享 权 信 、 空 间或 
和 一人 于 一 时 间 上 的 池 化 降 采样 三 大 特点 来 充分 利用 数据 本 身 包含 的 局 部 
内 | 坟 | 命 | 汪 | 6 性 特征 ， 并 且 在 一 定 程度 上 保证 位 移 的 不 变性 中 。 卷 积 模型 的 
二 权 值 共享 结构 相似 于 生物 神经 网 络 ,降低 了 网 络 模型 的 复杂 度 ， 
Ma A 减少 了 权 值 的 数量 。 因 为 这 种 结构 特点 使 其 尤其 适合 大 图 像 数 
[而 | 而 | 计 e 据 的 机 器 学 习 ， 可 以 使 数量 庞大 的 图 像 识别 问题 不 断 降 维 ， 池 
ow 化 结构 极 大 地 提高 了 网 络 运 算 的 效率 。 但 正 是 由 于 这 样 的 池 化 
到 |- 全 | FF 个 | 二 结构 ， 在 对 特征 图 进行 抽样 时 ， 也 会 造成 丢失 一 些 有 效 的 数据 
z me ls le 信息 。 深 度 学 习 之 父 Hinton 认为 ， 池 化 解决 的 问题 是 错 的 ， 我 
们 应 该 整理 信息 而 不 是 丢弃 信息 ， 并 提出 了 Capsule 理论 中。 


CapsNet 由 mn 个子 网 络 (Capsule) 构成 ， 每 个 胶 圳 都 专注 
于 做 一 些 单独 的 任务 ， 而 胶 吉 本 身 需 要 多 层 网 络 来 实现 。 其 输 
出 的 向 量 包括 物体 所 属 类 型 的 概率 以 及 物体 的 状态 信息 (如 位 
、 方 向 、 大 小 、 形 变 、 速 率 、 颜 色 等 )。 低 层 Capsule 输出 的 
参数 会 被 转换 成 高 层 胶 囊 对 实体 状态 的 预测 ， 如 果 预 测 一 致 ， 
则 输出 这 一 层 的 参数 。CapsNet 模型 如 图 $ 所 示 。 

可 以 看 出 ，CapsNet 模型 也 采用 卷 积 结构 提取 特征 ， 但 
Primary Caps (Capsule 的 准备 层 ) 可 以 把 数据 信息 在 多 通道 下 
分 为 若干 个 单元 , 从 而 按照 每 个 单元 生成 保留 空间 信息 的 向 量 ， 
最 后 输入 下 一 层 的 Capsule 神经 元 中 。 这 一 结构 取代 了 传统 卷 
积 网 络 中 的 池 化 层 ， 有 效 地 减少 了 信息 的 损失 。 最 后 一 层 与 全 


图 3 手语 “ 冯 ” 和 “ 吴 ” 连接 层 类 似 ， 但 每 个 神经 元 被 改造 为 Capsule 结构 进行 分 类 输 
此 可 以 看 出 ， 手 指 语 是 中 国手 语 中 必 不 可 少 的 一 部 分 ， ”出 ， 称 为 DigitCaps 层 。 
不 仅 可 以 单独 的 手语 表达 ， 也 可 以 伴随 着 一 、 两 个 手势 动作 表 | Re 
达 手语 信息 。 手 指 语 使 手语 表达 更 加 准确 和 丰富 ， 尤 其 有 利于 | 
一 些 生僻 字 词 的 表达 。 
一 方面 ， 手 语 识别 可 以 作为 健全 人 与 春 哑 人 之 间 的 翻译 ， 向 量 | 输入 
为 于 哑 人 提供 更 好 的 服务 ， 另 一 方面 ， 作 为 人 体 语言 理解 的 ny 
部 分 ， 手 语 识别 可 作为 人 机 交互 的 一 种 手段 。 综 上 所 述 ， 手 指 | 输出 | 输出 | 9 
语 的 识别 是 手语 识别 的 重要 基础 和 组 成 部 分 ， 对 于 中 国手 语 的 Routing 更 新 
识别 具有 重大 的 意义 中 。 四 5 CapsNet 模型 


CapsNet 模型 用 活动 向 量 表示 一 个 实体 是 否 出 现 以 及 这 个 

实体 的 属性 。 用 向 量 不 同 维度 上 的 值 分 别 表示 不 同 的 属性 ， 然 

目前 基于 计算 机 视觉 的 手语 识别 方法 主要 采用 卷 积 神经 网 。 后 用 整个 向 量 的 模 表 示 这 个 实体 出 现 的 概率 。 为 了 保证 向 量 的 

络 的 方法 名。 卷 积 神经 网 络 在 图 像 分 类 的 任务 上 有 突出 的 表现 。 ”长 度 ， 也 就 是 实体 出 现 的 概率 在 0~1 间 ， 向 量 通 过 一 个 非 线 性 

一 个 完整 的 卷 积 网 络 通常 包括 输入 层 、 卷 积 层 、 池 化 层 、 全 连 ”计算 进行 压缩 和 标准 化 ， 这 样 向 量 在 高 维 空间 中 的 方向 体现 了 

接 层 。 这 个 实体 的 不 同属 性 。 采 用 squashing 非 线 性 函数 可 保证 输出 
传统 的 卷 积 神经 网 络 都 是 在 LeNet5 模型 的 基础 上 , 用 增加 向 量 的 长 度 在 0~1 间 。 以 下 是 squashing 函数 表达 式 : 


1 ”CapsNet 模型 


2 
sp s, 


bs 2 
HTs PITs 


其 中 : Vv 为 Capsule 的 输出 向 量 ; 
有 刁 . 
量 


(1) 


5S 为 上 一 层 Capsule 输出 的 向 
加 权 和 。 该 非 线性 函数 既 保 留 了 输入 向 量 的 方向 ， 也 将 输入 


向 量 的 长 度 压 缩 在 [0,1) 区 间 内 。 向 量 的 输入 可 分 为 两 个 阶段 ， 


如 下 所 示 : 
5 = in O) 
Wi = Wt, G3) 
其 中 : ji 由 较 低 层 的 Capsule 输出 i 与 权重 矩阵 相 乘 得 来 ; ci 
是 动态 路 由 过 程 中 的 耦合 系数 ， 如 下 所 示 : 
exp(b, 
GE exp(by) (4) 
>, exp(b, ) 
已 十 友人 已 (5) 
利用 预测 向 量 ji 和 输出 向 量 vj 的 内 积 来 度量 向 量 间 的 


一 致 性 ， 并 更 新 好 ， 利 用 


softmax 更 新 耦合 系数 ， 进 一 步 修 正 


通过 这 种 方式 不 


下 一 层 Capsule 的 输入 sj， 最 后 输出 新 的 vj 。 
断 和 迭代 更 新 一 致 性 参数 。Capsule 层级 间 结 构 如 


Ce 


C1j 


图 6 所 示 。 
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| 6 ”Capsule 层级 间 结 构 


这 样 通过 上 述 方 法 不 断 更 新 cj ， 不 需要 应 用 反 向 传播 算 


法 。 而 且 该 Routing 算法 十 分 容易 收敛 ， 通 过 3 次 迭代 就 会 达 
到 不 错 的 收敛 效果 。 但 在 整个 网 络 中 其 他 卷 积 参数 和 Capsule 


准 的 反 向 传播 更 新 这 些 参数 。 


2 ”实验 准备 


内 的 屿 权重 矩阵 依然 需要 根据 损失 函数 进行 更 新 ， 


通常 使 用 标 


2.1 手指 语 采 集 及 预 处 理 

Kinect 是 微软 发 布 的 深度 摄像 头 外 ， 提 供 的 深度 数据 和 人 
体 骨 骼 点 数据 为 手势 识别 的 研究 开辟 了 更 广阔 的 空间 。 通 过 
Kinect 中 BodyIndex 方法 可 以 得 到 深度 图 像 ， 把 手 部 图 像 提 取 


出 来 to 


于 Kinect 的 深度 值 会 随 距 离 的 增加 发 生 1 
好 的 实验 效果 ， 


扁 差 ， 为 达到 更 


被 拍摄 的 手 部 位 于 Kinect 正 前 方 1.2 m~1.5 m 


的 距离 ， 并 且 分 别 从 手势 的 正 前 方 、 左 侧 方 、 右 侧 方 三 个 角度 
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采集 。 得 到 的 二 值 手 指 语 图 像 将 手 部 置 于 图 像 中 心 ， 
44x44 的 二 值 图 像 ， 以 减 小 实验 的 运算 量 。 
2.2 图 像 滤波 

传统 的 滤波 算法 有 均值 滤波 、 中 值 滤波 、 高 斯 滤波 等 。 均 
值 滤波 算法 相对 简单 且 易 于 实现 ， 但 会 使 目标 边缘 模糊 ， 而 且 
对 0 值 噪声 敏感 ， 影 响 后 续 处 理 。 高 斯 滤波 处 理 图 像 的 平滑 程 
度 取决 于 标准 差 , 离 中 心 越 近 的 像素 权重 越 高 , 平滑 效果 较 好 。 
于 通过 Kinect 采集 的 深度 图 像 中 噪声 多 为 0 值 点 ， 即 摄像 机 
无 法 获取 深度 值 的 点 ， 使 用 中 值 滤波 可 以 有 效 去 除 噪 声 点 ， 又 
能 保护 手 部 边缘 信息 00。 所 以 本 文采 用 中 值 滤波 算法 进行 去 


品 。 


并 缩小 为 


中 值 滤 波 法 是 一 种 非 线 性 平滑 技术 ， 它 的 基本 原理 是 通过 
使 用 模板 合算 子 对 覆盖 区 域内 所 有 像素 值 排序 ， 将 这 些 像 素 点 
的 中 值 更 新 当前 像素 点 的 值 。 本 文 使 用 的 中 值 滤波 模板 大 小 为 
3X3 。 

2.3 扩展 数据 集 

在 训练 图 像 识别 的 深度 神经 网 络 时 ， 通 过 使 用 大 量 的 训练 
数据 ， 使 网 络 得 到 更 好 的 性 能 ， 如 提高 网 络 的 分 类 准确 率 、 防 
止 过 拟 合 等 。 获 取 更 多 的 训练 样本 的 代价 很 大 ， 在 实践 中 常常 
是 很 难 达 到 的 ， 但 是 通过 人 为 扩展 训练 数据 02 能 够 获得 类 似 的 
效果 。 
本 文 对 三 个 方向 的 手指 语 图 像 采 用 水 平 翻转 、 旋 转 、 添 加 
随机 椒盐 噪声 方法 来 扩展 训练 数据 集 ， 这 些 方法 可 以 模拟 真实 
世界 的 变化 ， 提 升 模型 的 准确 率 和 泛 化 能 力 031。 

采集 中 国手 指 语 前 10 个 字母 a~j 的 手指 语 , 对 数据 集 全 部 
处 理 完毕 后 ， 共 生成 6 500 张 手指 语 图 片 ， 其 中 随机 选取 
张 作 为 测试 集 ， 数 据 处 理 流程 如 图 7 所 示 。 
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3 ”实验 
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实验 硬件 环境 为 : Intel 酷 害 i5-3230 CPU @ 2.60 GHz 抱 
CPU，8 GB 内 存 ，NVIDIA GeForce GT 645M 2 GB 显卡 。 首 
输入 44x44 图 像 数据 。 由 于 手指 语 类 型 较 多 , 手 形 轮 廊 较 复杂 ， 
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较 大 的 卷 积 核 可 以 提取 到 较 多 手 型 边缘 特征 。 
卷 积 核 设 置 大 小 为 8x8、10x10 和 13x13， 并 在 不 同 环境 下 作为 
对 比 实验 1 叫 ， 第 一 层 卷 积 步 幅 为 1x1， 第 二 层 卷 积 步 幅 为 2x2， 
反 向 传播 算法 欠 代 20 次 ， 动 态 路 由 算法 共 迭 代 3 次 。 
首先 卷 积 核 大 小 设置 为 10x10， 对 全 部 图 像 进行 中 值 滤 ; 
处 理 ， 在 没有 添加 噪声 的 条 件 下 进行 了 实验 ， 达 到 了 和 较 高 的 识 
别 率 。 损 失 函 数 变 化 如 图 8 所 示 。 由 图 可 以 看 出 ，CapsNet 模 
型 可 以 很 快 地 拟 合 数据 。 在 训练 到 第 4 500 步 后 ， 趋 于 稳定 状 
态 。 训 练 效果 如 图 9 所 示 。 在 该 实验 条 件 下 ，CapsNet 模型 在 
测试 集 的 识别 率 达 到 95.8%。 


本 实验 以 前 两 层 
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图 8 整体 损失 变化 
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图 9 训练 效果 

在 上 述 实验 的 基础 上 添加 随机 椒盐 噪声 后 ， 识 别 率 下 降 
不 明显 ， 证 明了 此 模型 拥有 较 好 的 鲁 棒 性 。 本 文 分 别 使 用 8x8 
和 13x13 的 卷 积 核 重 复 实验 ， 实 验 结果 对 比如 表 1 所 示 。 


表 1 不 同 参数 下 平均 识别 率 对 比 


4.000k 6.000k 


8x8 10x10 13x13 
无 噪声 92.6% 95.8% 95.8% 
有 噪声 91.2% 94% 95.4% 
在 此 基础 上 ， 实 验 分 别 在 测试 集 上 验证 每 个 手指 语 的 准确 


率 ， 达 到 了 预期 效果 。 由 于 手指 语 的 采集 分 别 从 正 前 方 、 左 侧 
方 、 右 侧 方 三 个 角度 采集 ， 导 致 手指 语 g 和 i 中 几 个 手势 相似 ， 
所 以 在 测试 集 上 的 识别 率 不 太 理想 ， 平均 识别 率 分 别 达到 84% 
和 82%, 而 手指 语 j 的 识别 率 达 到 100%。 单个 手指 语 识别 率 如 
图 10 所 示 。 

GoogLeNet 的 Inception 结 


构 相 比 AlexNet 和 VGG， 增 加 
了 网 络 宽度 ， 拥 有 更 少 的 参数 ， 保 持 了 网 络 结构 的 稀 玻 性 ， 利 
用 密集 矩阵 极 大 的 提高 了 计算 性 能 053。Inception -v409 不 仅 
有 Inception 前 四 个 版 本 的 特性 , 更 是 结合 了 ResNet, 进一步 减 
\ 了 错误 率 。 由 此 ， 在 有 噪声 的 条 件 下 ， 使 用 Inception -v4 进 
行 实验 作为 对 比 。CapsNet 与 Inception -v4 实验 对 比如 表 2 所 


Re 


郝 子 焊 ， 等 : 基于 CapsNet 的 中 国手 指 语 识别 
示 。 从 表 2 可 以 看 出 ，Inception -v4 的 平均 准确 率 为 94.4%， 
略 低 于 CapsNet。 对 于 单个 手指 语 字母 的 识别 ， 最 高 都 达到 了 
100% 。 
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图 10 单个 手指 语 准确 率 
表 2 CapsNet 与 Inception-4 实验 对 比 
网 络 结构 平均 准确 率 单个 最 高 准确 率 
CapsNet 95.4% 100% 
Inception ~—v4 94.4% 100% 
4 ”结束 语 
本 文采 用 CapsNet 模型 ， 使 用 卷 积 结构 和 动态 路 由 更 新 参 


数 的 算法 进行 静态 手指 语 的 识别 。 实 验 显示 CapsNet 模型 在 手 
指 语 识别 的 任务 上 达到 很 好 的 效果 ， 在 添加 噪声 的 条 件 下 最 高 
平均 识别 率 达 到 95.4%， 尤 其 是 在 三 个 角度 的 手指 语 会 造成 部 
分 手指 语 特征 不 明显 的 情况 下 达到 较 高 的 准确 率 ， 说 明了 这 种 
a 更 新 参数 和 用 向 量 预测 目标 属性 的 算法 有 较 好 的 性 

。 手 i ee 方向 、 位 置 、 运 动 轨迹 四 个 特征 。 手 指 
a 分 。 在 未 来 的 研究 工作 中 ， 针 对 动态 手语 的 
多 个 手语 特征 ， 使 用 时 空域 的 算法 结合 Capsule 的 优良 特性 进 
行 完整 手语 的 识别 。 
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